[レポート]Modernize your analytics architecture with Amazon Athena (Data Meshパート) #ANT327 #reInvent
データアナリティクス事業本部の笠原です。
ANT327『Modernize your analytics architecture with Amazon Athena』を聴講しましたので、そのレポートです。
セッションについて
登壇者
- Daniel Chen, Senior Product Manager, AWS
- Saurabh Bhutyani, Principal Analytics Solutions Architect, AMAZON WEB SERVICES
Session Level
300 - Advanced
Session Type
Chalk Talk
セッション概要
このトークセッションでは、Amazon Athenaのデータソースコネクタとオープンデータフォーマットを使用して、データメッシュ、ファブリック、仮想化などの最新の分析アーキテクチャを設計および実装し、データサイロを破壊して分析の俊敏性を促進する方法を学びます。
セッションは大きく分けて、機械学習・データ可視化・データメッシュの3つの観点で説明されており、 私の記事では、データメッシュの部分についてご紹介いたします。 機械学習・データ可視化の部分については、 @nayu_t_s のレポート記事を参照ください。
レポート
データメッシュ
データメッシュはモダンなデータアーキテクチャパターンの1つです。 以下の4つの基本原理があります。
- Domain ownership (ドメインにオーナーシップがある)
- Data as a product (製品としてのデータ)
- Self-serve data platform (セルフサービスデータプラットフォーム)
- Federated computational governance (統一的なコンピューティングガバナンス)
データに近いドメインにオーナーシップがあり、データは製品のように扱います。 例えば小売業の場合は、salesの他にsupply chainやmarketingなどの複数のドメインがあります。 各ドメインが持つデータは、各ドメインが責任を持って管理します。 他のドメインがそのデータを使って分析するためには、ドメインから提供される分析データは製品として扱います。
製品としてのデータとは、以下のような特徴を持っています。 各ドメインで管理されているデータを他のドメインでも迅速に利用できるように、 データコントラクトを整備し、読み取り専用として提供します。 データの管理はあくまでもオーナーのドメイン側で、独立して管理してます。
データドメイン側の"producer"がデータ製品をAthenaで作る方法を示します。 producer側は自らが管理するデータパイプラインを介して、S3バケットにデータを取り込みます。 producer自身は、管理下にある全てのデータのライフサイクル全般に関わる責任をもつ所有者となります。 producerはデータ利用者側("consumer")がデータを発見できるように、データをカタログ化します。 また、fine grained access controlを実施するために、Federated data governanceモデルを通じてデータをアクセスを制御します。
データメッシュアーキテクチャを用いることで得られる成果は以下のとおりです。
- ビジネスドメインデータレイクの独立した配信を加速化します
- ドメイン内のデータセキュリティとコンプライアンスを向上させます
- セルフサービスによるデータプロダクトの作成、発見、サブスクリプションを実現します
- コンシューマーがデータ製品に透過的にアクセスできます
- 長期的なアクセスの監視、監査、管理を行います
データメッシュ共通パターン
Hub and spoke
- producerはconsumerにデータを直接共有します
- 分権型ガバナンス
- 中央データカタログなし
- シンプルなセットアップとスタートアップが可能です
Athenaで実装すると以下のような構成になります。 producerは、Athenaで抽出したデータをLake Formationを経由して、consumerに共有します。 consumerは、共有されたデータから、自身に必要なデータをAthenaで取得して利用します。
Centralized governance
- producerは中央のカタログを経由してデータを共有します
- 中央集権的なガバナンスと監査を行います
- 統合されたアクセス制御が可能です
- 統一されたポリシー管理も可能です
Athenaで実装すると以下のような構成になります。 producerとconsumerの間にgovernanceを設置し、ここでデータカタログやアクセス管理等を行います。
最後に
ANT327 『Modernize your analytics architecture with Amazon Athena』のレポートでした。 データメッシュについては大規模なデータ管理における分散型アプローチとなっています。 まだ私自身もデータメッシュに関わる事例に関わっていないため、今後のソリューションの一つとしてさらに学んでいきたいと思います。